16 research outputs found

    Applicability of semi-supervised learning assumptions for gene ontology terms prediction

    Get PDF
    Gene Ontology (GO) is one of the most important resources in bioinformatics, aiming to provide a unified framework for the biological annotation of genes and proteins across all species. Predicting GO terms is an essential task for bioinformatics, but the number of available labelled proteins is in several cases insufficient for training reliable machine learning classifiers. Semi-supervised learning methods arise as a powerful solution that explodes the information contained in unlabelled data in order to improve the estimations of traditional supervised approaches. However, semi-supervised learning methods have to make strong assumptions about the nature of the training data and thus, the performance of the predictor is highly dependent on these assumptions. This paper presents an analysis of the applicability of semi-supervised learning assumptions over the specific task of GO terms prediction, focused on providing judgment elements that allow choosing the most suitable tools for specific GO terms. The results show that semi-supervised approaches significantly outperform the traditional supervised methods and that the highest performances are reached when applying the cluster assumption. Besides, it is experimentally demonstrated that cluster and manifold assumptions are complimentary to each other and an analysis of which GO terms can be more prone to be correctly predicted with each assumption, is provided.Postprint (published version

    Espacio y territorios: razón, pasión e imaginarios

    Get PDF
    En este caleidoscopio de acercamientos hacia lo espacial y territorial, las visiones se mueven desde aquellas románticas y existencialistas, pasando por aquellas objetivistas y positivistas, hasta las estructuralistas y postestructuralistas. Por el espacio y el territorio se interesan con enfoques diversos numerosas disciplinas, desde la psicología, la etología o la literatura, y las ciencias naturales como la biología o la ecología, hasta las ciencias sociales y políticas, como la geografía, la antropología, la economía y la sociología. Este interés multidisciplinario demuestra la importancia y la complejidad del tema espacial y territorial, y reclama la necesidad de su estudio y comprensión interdisciplinarios, como se intenta con esta publicación

    4to. Congreso Internacional de Ciencia, Tecnología e Innovación para la Sociedad. Memoria académica

    Get PDF
    Este volumen acoge la memoria académica de la Cuarta edición del Congreso Internacional de Ciencia, Tecnología e Innovación para la Sociedad, CITIS 2017, desarrollado entre el 29 de noviembre y el 1 de diciembre de 2017 y organizado por la Universidad Politécnica Salesiana (UPS) en su sede de Guayaquil. El Congreso ofreció un espacio para la presentación, difusión e intercambio de importantes investigaciones nacionales e internacionales ante la comunidad universitaria que se dio cita en el encuentro. El uso de herramientas tecnológicas para la gestión de los trabajos de investigación como la plataforma Open Conference Systems y la web de presentación del Congreso http://citis.blog.ups.edu.ec/, hicieron de CITIS 2017 un verdadero referente entre los congresos que se desarrollaron en el país. La preocupación de nuestra Universidad, de presentar espacios que ayuden a generar nuevos y mejores cambios en la dimensión humana y social de nuestro entorno, hace que se persiga en cada edición del evento la presentación de trabajos con calidad creciente en cuanto a su producción científica. Quienes estuvimos al frente de la organización, dejamos plasmado en estas memorias académicas el intenso y prolífico trabajo de los días de realización del Congreso Internacional de Ciencia, Tecnología e Innovación para la Sociedad al alcance de todos y todas

    Optimization Methodology for Control Parameters of Genetic Algorithms

    No full text
    En este trabajo se presenta una metodología para la sintonización simultánea de los parámetros de control de un algoritmo genético, enfocada a la reducción del número de generaciones empleadas por el algoritmo para encontrar un óptimo. La metodología incluye un meta-algoritmo genético en combinación con una superficie de regresión por vectores de soporte que reduce la demanda computacional inherente al método del meta-algoritmo. Cada elemento que compone la metodología fue escogido de forma que cuente con sustento suficiente para la sintonización de sus propios parámetros de control y se cumpla con el propósito principal de este trabajo que es la automatización del proceso de selección de los parámetros de control, sin generar parámetros adicionales. El algoritmo genético de alto nivel incorpora técnicas de generación de nichos para aumentar la exploración del espacio de búsqueda. El método utilizado para la definición de los nichos es uno de los principales aportes de este trabajo, así como una novedosa técnica de apareamiento restringido. La optimización de los parámetros de control del algoritmo genético de bajo nivel, es planteada como un problema de optimización sujeto a restricciones, para lo cual se plantea una nueva forma de penalización estática que no requiere el ajuste de coeficientes de penalización. Las pruebas y resultados presentados incluyen la sintonización de los tres parámetros de control fundamentales de un algoritmo genético: la probabilidad de mutación, la probabilidad de cruce y el tamaño de la población inicial. Además, se sintoniza un parámetro adicional como un ejemplo de los parámetros resultantes al incluir otros operadores especiales, en este caso, un método de escalamiento de calidad. Cada prueba fue desarrollada sobre un conjunto de ocho funciones de evaluación comparativa (benchmarking) que incluye casos continuos, discontinuos, convexos, no convexos, unimodales, multimodales, cuadráticos, no cuadráticos, de baja y de alta dimensionalidad, determinísticos y no determinísticos / Abstract: A methodology for simultaneous tuning of the control parameters of genetic algorithms is presented. This methodology is focused on reducing the number of generations the algorithm takes to find an optimal solution. The inherent computational costs due to the meta-algorithm are reduced by incorporating a support vector regression that models the interactions among genetic algorithm parameters. Each element in the methodology was selected in such a way that its theoretical background provides the sufficient basis for tuning its own parameters and thus, we can achieve the automatic tuning of control parameters in genetic algorithms, without adding new parameters, which is the main purpose of this work. The high level genetic algorithm was designed encompassing niche and speciation techniques, in order to increase exploration in the search space. The method for locating the niches and a novel restricted mating procedure are two of the mayor contributions of this work. Parameter optimization of low level genetic algorithm is viewed as a restricted optimization problem, which is solved by a novel static penalization method with no penalty coefficients. The results include tuning of the three main parameters: mutation probability, recombination probability and size of the initial population. In addition, an extra parameter for fitness scaling is included, as an example of parameters resulting from the application of special operators. Each test was developed over a set of eight benchmark functions, including continuous, discontinuous, convex, non-convex, unimodal, multimodal, quadratic, non-quadratic, low dimensional, high dimensional, deterministic and nondeterministic functions.Maestrí

    Protein function prediction with semi-supervised classification based on evolutionary multi-objective optimization

    Get PDF
    Las proteínas son los elementos clave en el camino desde la información genética hasta el desarrollo de la vida. Las funciones desempeñadas por las diferentes proteínas son difíciles de detectar experimentalmente ya que este proceso implica procedimientos complejos, como las modificaciones genéticas, la inyección de proteínas fluorescentes, métodos de knock-out de genes y otros. El conocimiento aprendido de cada proteína es generalmente anotado en bases de datos a través de diferentes métodos como el propuesto por la Ontología Genética (GO). Se han propuesto diferentes métodos para predecir términos GO a partir de la información contenida en la estructura primaria, pero muy pocos están disponibles para la anotación funcional a gran escala de plantas, y las tasas de acierto reportadas son mucho menores que los reportados por otros predictores sobre especies no vegetales. El enfoque más común para llevar a cabo esta tarea es mediante el uso de estrategias basadas en la anotación basada en transferencia de homólogos . El proceso de anotación se centra en la búsqueda de secuencias similares en bases de datos de proteínas anotadas anteriormente, mediante el uso de herramientas de alineación de secuencias como BLASTp. Sin embargo, una alta similitud no implica necesariamente una homología, y podría haber homólogos con una escasa similitud. Como alternativa a las herramientas de anotación basadas en alineamientos, los métodos más recientes han utilizado técnicas de aprendizaje de máquina entrenados sobre espacios de características físico-químicas o estadísticas, a fin de diseñar herramientas que pueden ser capaces de lograr un alto rendimiento de predicción cuando las herramientas clásicas sin duda fracasarían. El presente trabajo se encuentra en el marco del aprendizaje de máquina aplicado a la predicción de funciones de proteínas, a través del uso de un paradigma moderno llamado aprendizaje sem-supervisado. Este paradigma está motivado en el hecho de que en muchos problemas del mundo real, la adquisición de una gran cantidad de muestras de entrenamiento etiquetadas es cara y consume mucho tiempo. Debido a que la obtención de datos sin etiqueta requiere menos esfuerzo humano, es de gran interés para incluirlo en el proceso de aprendizaje, tanto en la teoría como en la práctica. Un gran número de métodos semi-supervisados se han propuesto recientemente y han demostrado mejorar la precisión de los enfoques clásicos supervisadas en un gran número de aplicaciones del mundo real. Sin embargo, el éxito de los enfoques semi-supervisados depende en gran medida de las suposiciones previas que se tienen que hacer sobre los datos. Cuando estas suposiciones no se cumplen, la inclusión de datos sin etiqueta puede ser perjudicial para el predictor. En este trabajo, se analizan los principales enfoques para llevar a cabo el aprendizaje semi-supervisado sobre el problema de la predicción de funcionesde proteínas, y sus suposiciones subyacentes se identifican y se combinan en un marco de optimización multi-objetivo, con el fin de obtener un nuevo modelo de aprendizaje que sea menos dependiente de las la naturaleza de los datos. Todos los experimentos y los análisis se centran en las plantas terrestres (Embryophyta), que constituyen una parte importante de la biodiversidad nacional de Colombia, incluyendo la mayoría de los productos agrícolas.Abstract : Proteins are the key elements on the path from genetic information to the development of life. The roles played by the different proteins are difficult to uncover experimentally as this process involves complex procedures such as genetic modifications, injection of fluorescent proteins, gene knock-out methods and others. The knowledge learned from each protein is usually annotated in databases through different methods such as the proposed by The Gene Ontology (GO) consortium. Different methods have been proposed in order to predict GO terms from primary structure information, but very few are available for large-scale functional annotation of plants, and reported success rates are much less than the reported by other non-plant predictors. The most common approach to perform this task is by using strategies based on annotation transfer from homologues. The annotation process centers on the search for similar sequences in databases of previously annotated proteins, by using sequence alignment tools such as BLASTp. However, high similarity does not necessarily implies homology, and there could be homologues with very low similarity. As an alternative to alignment-based tools, more recent methods have used machine learning techniques trained over feature spaces of physical-chemical, statistical or locally-based attributes, in order to design tools that can be able of achieving high prediction performance when classical tools would certainly fail. The present work lies on the framework of machine learning applied to protein function prediction, through the use of a modern paradigm called semi-supervised learning. This paradigm is motivated on the fact that in many real-world problems, acquiring a large amount of labeled training data is expensive and time consuming. Because obtaining unlabeled data requires less human effort, it is of great interest to include it in the learning process both in theory and in practice. A high number of semi-supervised methods have been recently proposed and have demonstrated to improve the accuracy of classical supervised approaches in a vast number of real-world applications. Nevertheless, the successfulness of semi-supervised approaches greatly depends on prior assumptions they have to make about the data. When such assumptions does not hold, the inclusion of unlabeled data can be harmful to the predictor. Here, the main approaches to perform semi-supervised learning were analyzed on the problem of protein function prediction, and their underlying assumptions were identified and combined in a multi-objective optimization framework, in order to obtain a novel learning model that is less dependent on the nature of the data. All the experiments and analyses were focused on land plants (Embryophyta), which constitutes an important part of the national biodiversity of Colombia, including most agricultural products.Doctorad

    Máquinas de vectores de soporte para detección de biomarcadores en experimentos in vitro e in vivo de exposición a organoclorados

    Get PDF
    Metabolomic studies generate large amounts of data, whose complexity increases if they are derived from in vivo experiments. As a result, analysis methods highly used in metabolomics, such as Partial Least Squares Discriminant Analysis (PLS-DA), can have particular difficulties with this type of data. However, there is evidence that indicates that Support Vector Machines (SVMs) can better deal with complex data. On the other hand, chronic exposure to organochlorines is a public health problem. It has been associated with diseases such as cancer. Therefore, its identification is relevant to reduce their impact on human health. This study explores the performance of SVMs in classifying metabolic profiles and identifying relevant metabolites in studies of exposure to organochlorines. For this purpose, two experiments were conducted: in the first one, organochlorine exposure was evaluated in HepG2 cells; and, in the second one, it was evaluated in serum samples of agricultural workers exposed to pesticides. The performance of SVMs was compared with that of PLS-DA. Four kernel functions were assessed in SVMs, and the accuracy of both methods was evaluated using a k-fold cross-validation test. In order to identify the most relevant metabolites, Recursive Feature Elimination (RFE) was used in SVMs and Variable Importance in Projection (VIP) in PLS-DA. The results show that SVMs exhibit a higher percentage of accuracy with fewer training samples and better performance in classifying the samples from the exposed agricultural workers. Finally, a workflow based on SVMs for the identification of biomarkers in samples with high biological complexity is proposed.Los estudios en metabolómica generan gran cantidad de datos cuya complejidad aumenta si surgen de experimentos in vivo. A pesar de esto, métodos ampliamente usados en metabolómica como el análisis discriminante por mínimos cuadrados parciales (PLS-DA) tienen dificultades con este tipo de datos, sin embargo, hay evidencia que las máquinas de vectores de soporte (SVM) pueden tener un mejor desempeño. Por otro lado, la exposición crónica a organoclorados es un problema de salud pública. Esta se asocia a enfermedades como el cáncer. Identificarla exposición es relevante para disminuir su impacto. Este estudio tuvo como objetivo explorar el rendimiento de las SVM en la clasificación de perfiles metabolómicos e identificación de metabolitos relevantes en estudios de exposición a organoclorados. Se realizaron dos experimentos: primero se evaluó la exposición a organoclorados en células HepG2. Luego, se evaluó la exposición a pesticidas en muestras de suero de trabajadores agrícolas. El rendimiento de las SVM se comparó con PLS-DA. Se evaluaron cuatro funciones kernel en SVM y la precisión de ambos métodos se evaluó mediante prueba de validación cruzada k-fold. Para identificar los metabolitos relevantes, se utilizó eliminación recursiva de características (RFE) en SVM y la proyección de importancia de variables (VIP) se usó en PLS-DA. Los resultados mostraron que las SVM tuvieron mayor precisión en la clasificación de los trabajadores agrícolas expuestos usando menos muestras de entrenamiento. Se propone un flujo de trabajo basado en SVM que permita la identificación de biomarcadores en muestras con alta complejidad biológica

    Applicability of semi-supervised learning assumptions for gene ontology terms prediction

    No full text
    Gene Ontology (GO) is one of the most important resources in bioinformatics, aiming to provide a unified framework for the biological annotation of genes and proteins across all species. Predicting GO terms is an essential task for bioinformatics, but the number of available labelled proteins is in several cases insufficient for training reliable machine learning classifiers. Semi-supervised learning methods arise as a powerful solution that explodes the information contained in unlabelled data in order to improve the estimations of traditional supervised approaches. However, semi-supervised learning methods have to make strong assumptions about the nature of the training data and thus, the performance of the predictor is highly dependent on these assumptions. This paper presents an analysis of the applicability of semi-supervised learning assumptions over the specific task of GO terms prediction, focused on providing judgment elements that allow choosing the most suitable tools for specific GO terms. The results show that semi-supervised approaches significantly outperform the traditional supervised methods and that the highest performances are reached when applying the cluster assumption. Besides, it is experimentally demonstrated that cluster and manifold assumptions are complimentary to each other and an analysis of which GO terms can be more prone to be correctly predicted with each assumption, is provided

    Clasificación basada en disimilitudes para modelos estocásticos de espacios de inserción aplicados a la detección de patologías de voz

    No full text
    RESUMEN: En este trabajo se investiga una forma alternativa de modelar el comportamiento no lineal presente en las señales de voz patológicas. El método consiste en modelar atractores reconstruidos mediante la técnica de retardo de tiempo, teniendo en cuenta la información espacial y temporal de las trayectorias en el atractor a partir de modelos ocultos de Markov (HMM) discretos. A partir de modelos HMM entrenados para los espacios embebidos es posible calcular una medida de distancia basada en un kernel probabilístico, que posibilita la construcción de un espacio de disimilitud. Esta aproximación permite la comparación de familias de atractores a partir de la comparación de prototipos en lugar de evaluar características no lineales individuales de cada sujeto. La clasificación del espacio de disimilitud se lleva a cabo usando un clasificador por vecino más cercano y se compara con otro esquema de clasificación que emplea dos características convencionalmente empleadas en análisis no lineal: máximo exponente de Lyapunov y dimensión de correlación. Los resultados muestran que la máxima eficiencia alcanzada con el esquema propuesto es un 18,71% más alta que la máxima exactitud obtenida a partir de clasificación basada en estadísticas no lineales convencionales.ABSTRACT: This paper investigates a new way for modelling the nonlinear behavior present in athological voice signals. The main idea is modelling the timedelay reconstructed attractors, taking into account the spatial and temporal information of the trajectories by means of a discrete Hidden Markov model (HMM). When the attractors are modeled with HMM it is possible to compute a probabilistic kernel-based distance among models to construct a dissimilarity space. This approach enables the possibility of comparing attractor families by their profiles, rather than evaluating individual nonlinear features of each subject. Classification of dissimilarity space is carried out by using a naive 1-nearest neighbors rule and it is compared with another classification scheme that employs two conventional nonlinear statistics: largest Lyapunov exponent and correlation dimension. Results show that the maximum accuracy with the proposed scheme is a 18.71% greater than the maximum accuracy obtained from the classification based on the conventional nonlinear statistics

    Pensar la crisis. Perplejidad, emergencia y un nuevo nosotros

    No full text
    De repente, el covid-19 nos ha puesto en un nuevo lugar en el que incertidumbre y complejidad coinciden para desafiarnos a actuar de un modo distinto al habitual. Se revitaliza entonces la necesidad de cuestionar, pensar y proponer. De allí nace esta iniciativa de la Universidad EAFIT. La motivación surge porque para muchos de nosotros la escritura es remedio para lidiar con las sensaciones de estos días y el objetivo es aportar reflexiones breves y libres, divulgativas y propositivas. Perplejidad como reacción inmediata, emergencia de decisiones y acciones, y un nuevo nosotros como eventual consenso es la síntesis de acontecimientos que configura el punto de partida de las consideraciones que se presentan en este libro.Introducción. Adolfo Eslava Gómez y Jorge Giraldo Ramírez. p. 7 -- Consideraciones sobre la crisis. Jorge Giraldo Ramírez. p. 9 -- Grietas, fracturas y posibilidades de nuevos órdenes con ocasión del covid-19. Juan Gabriel Gómez Albarello. p. 23 -- ¿El fin del liberalismo? Iván Garzón Vallejo. p. 39 -- Cuarto espíritu del capitalismo: pandemia y malestar. Johnny Orejuela. p. 49 -- Cuarentena mental. José Luis Villacañas. p. 69 -- Coronavirus y el arte de la paciencia. Alberto Buela. p. 77 -- Sabiduría práctica en tiempos de crisis. Jonathan Echeverri Álvarez. p. 83 -- ¿Se gobierna una crisis? Insumos para una agenda de investigación de la teoría y la praxis del gobierno. Adolfo Eslava Gómez. p. 99 -- Algunas ideas desde los estudios del comportamiento para entender, analizar y enfrentar la crisis del covid-19. Santiago Silva Jaramillo. p. 111 -- El valor de la vulnerabilidad. Mariantonia Lemos. p. 125 -- Pandemia: interpretaciones y otros demonios. Daniel Jaramillo Arroyave. p. 135 -- Los niños y el confinamiento. Alejandra Ríos y Mateo Navia. p. 143 -- De encierros y plagas. Omar Mauricio Velásquez. p. 151 -- Pandemia al diario. El inicio de una cuarentena que casi se cobra su primera víctima. Alfonso Buitrago Londoño. p. 163 -- “Sublime”. Un pliegue matemático para la historia de estas emociones. Carlos Andrés Salazar Martínez y Olga Lucía Quintero Montoya. p. 177 -- Habitar poéticamente el ciberespacio. Digresiones optimistas en tiempos de confinamiento. Mauricio Vásquez Arias y Lorena Avilés Romero. p. 195 -- Reflexiones sobre el uso de la virtualidad en el aprendizaje de la música, surgidas a partir de la emergencia generada por la pandemia del covid-19. Javier Asdrúbal Vinasco Guzmán. p. 213 -- Reflexiones de un financiero, en el contexto de una crisis global Víctor Manuel Sierra Naranjo. p. 233247 p
    corecore